数据集 | 众筹金融投资平台kiva借贷数据

Original 大邓大邓和他的Python

2024-09-10

一、Kiva简介

Kiva.org 是一个成立于 2005 年的国际非营利亲社会金融投资平台，其主要工作是通过众筹贷款，并以极低的利息来发放给那些需要的人们，以助其购买生活必需品，或是找到一份能维持生计的工作。具体来说，这一类 亲社会 金融投资平台在世界各地寻找合作伙伴，例如当地的享有盛誉的非营利组织，来筛选当地对于低息贷款有需要或生活上遭受苦难的人，并收集其资料，然后向平台发出这些资料以请求帮助。而平台则通过众筹的方式为这些项目筹集贷款资金，投资者则可以以个人或团队的形式进行投资。

二、研究主题

亲社会行为心理（Pro-Social Behaviorial Psychology)
社会公益 ML 应用（Social Good ML Applications ）
公平性研究（Fairness Research）
社会影响评估（Social Impact Assessments）

部分参考文献

Defazio, Daniela, Chiara Franzoni, and Cristina Rossi-Lamastra. "How pro-social framing affects the success of crowdfunding projects: The role of emphasis and information crowdedness." Journal of Business Ethics 171 (2021): 357-378.

三、获取数据

网站: Kiva Tools

网址: http://kivatools.com/downloads

项目数(截止2024.4.10): 2187819

介绍: Kiva Tools 是一个帮助Kiva贷方更好地了解小额信贷和 Kiva 运营的网站。Kiva 目前在多个国家开展业务，并生成大量数据。查看这些数据以更好地了解地理和经济是非常有教育意义的。注意：Kiva Tools不隶属于 Kiva，也不受 Kiva 认可。

2024.4.10 打开 http://kivatools.com/downloads ，点击 All loans 对应的数据，进行下载，最终得到 875M 的 csv 文件。

四、查看数据

4.1 导入数据

import pandas as pd

df = pd.read_csv('all_loans.csv')
df

4.2 所含字段

所含字段包含

for col in df.columns:
    print(col)

字段详情

 - LOAN_ID:    贷款ID
 - LOAN_NAME:   Kiva贷方(出借人)姓名
 - FUNDED_AMOUNT:  Kiva贷方(出借人)已购买的贷款金额
 - LOAN_AMOUNT: 贷款额度
 - STATUS:   贷款状态包括违约、还款和已付级别，请参阅 http://build.kiva.org/docs/data/loans 了解每个级别的含义
 - IMAGE_ID: 图片ID
 - VIDEO_ID: 视频ID
 - ACTIVITY_NAME: 活动
 - SECTOR_NAME: 部门
 - LOAN_USE: 借款用途
 - COUNTRY_CODE: 国家代码
 - COUNTRY_NAME: 国家名称
 - TOWN_NAME: 城镇名称
 - CURRENCY_POLICY: 货币政策
 - CURRENCY_EXCHANGE_COVERAGE_RATE: 货币兑换
 - CURRENCY: 货币类型
 - PARTNER_ID: 当地贷款机构的现场合作伙伴 ID，请参阅http://api.kivaws.org/v1/partners.json
 - POSTED_TIME: 项目发布时间
 - PLANNED_EXPIRATION_TIME: 项目截止时间
 - DISBURSE_TIME: 发放给借款人的时间;  请注意，在 Kiva 上发布贷款之前，这笔钱可能会支付给借款人。
 - RAISED_TIME:   
 - LENDER_TERM:   借款人条款
 - NUM_LENDERS_TOTAL: 借款人数量
 - NUM_JOURNAL_ENTRIES: 借款人的日记账分录数量（Kiva 网站上的更新）。Number of journal entries (updates on the Kiva website) by borrower.
 - NUM_BULK_ENTRIES:
 - TAGS: 标签
 - BORROWER_NAMES:  借款人姓名
 - BORROWER_GENDERS: 借款人性别（有可能会存在多个借款人，所以数据类型为字符串或列表）
 - BORROWER_PICTURED:  借款人是否提供了图片
 - REPAYMENT_INTERVAL:  还款间隔
 - DISTRIBUTION_MODEL: 分销模式

4.3 行业

plt.figure(figsize=(8, 8))
df['SECTOR_NAME'].value_counts(normalize=True).plot(kind='pie')
plt.title('Kiva项目所属行业部门分布')
plt.show()

4.4 国家项目数量

plt.figure(figsize=(8, 8))

props = df['COUNTRY_NAME'].value_counts(normalize=True)
props_ = props[props>=0.01]
props_['Others'] = props[props<0.01].sum()

props_.plot(kind='pie')
plt.title('国家Kiva项目数量分布')
plt.show()